No seas tan Stief: optimización de KV Cache en la variedad de Stiefel
Descubre cómo StiefAttention comprime el caché KV con aproximación de rango bajo en la variedad de Stiefel, mejorando precisión y eficiencia en modelos de lenguaje.
Descubre cómo StiefAttention comprime el caché KV con aproximación de rango bajo en la variedad de Stiefel, mejorando precisión y eficiencia en modelos de lenguaje.